Gemini 3
谷歌推出新一代大型语言模型
Gemini 3是谷歌于2025年11月18日推出的新一代大型语言模型,基于稀疏混合专家架构并拥有超万亿参数,主要依赖TPU训练。该模型配备100万token上下文窗口,支持处理文本、图像、视频、音频和代码等多模态数据,发布当日即整合至谷歌搜索AI模式、Gemini应用、API接口及Vertex AI等产品线,开发者可以通过Google AI Studio、Vertex AI、Gemini CLI以及Cursor、GitHub、JetBrains、Manus和Replit等第三方平台访问Gemini 3。该模型在LMArena竞技场以1501 Elo得分位列榜首,在衡量模型通过终端操作计算机能力的Terminal-Bench 2.0测试中获得54.2%的分数。在智能体能力方面,Gemini 3在测试长期规划能力的Vending-Bench 2排行榜上位居榜首。
市场反响
截至2025年11月25日,Alphabet股价年内累计上涨71.42%。彭博社分析指出这一涨势主要得益于Gemini 3发布后获得的压倒性正面评价,Baird分析师Colin Sebastian在致客户报告中写道,“Gemini 3是否就是GPT-5本应达到的水平?”他援引了该版本获得的“极高评价”,并指出,“除提升搜索参与度和变现能力外,谷歌还融合了实时网络索引与先进模型训练技术,我们认为这是其关键竞争优势”。谷歌开始向Meta英伟达主要客户推销TPU替代方案,Seaport分析师Jay Goldberg指出此举可能抢占英伟达年收入的10%。
谷歌云平台营收同比增长34%至151亿美元,人工智能业务为云平台带来强劲增长动力;同期谷歌云平台新增客户数量同比增长34%。谷歌首席执行官桑达尔·皮查伊表示,人工智能产品矩阵推动公司营收增长,今年三季度签订的单笔价值超10亿美元合作协议数量超过前两年总和,超70%云服务客户启用人工智能服务。
道明证券分析师约翰·布莱克利奇的调研数据显示,7月至10月期间,双子座的月活跃用户渗透率从24%攀升至26%,谷歌人工智能搜索模式的渗透率从18%升至19%;同期ChatGPT的月活渗透率从36%微降至35%。传感器塔数据指出,8月至12月期间,双子座月活用户量增长约30%,而ChatGPT增长约15%;所有新款安卓设备预装双子座功能,提供渠道优势。
根据2025年彭博亿万富翁指数统计,Alphabet联合创始人拉里·佩奇个人净资产增加886亿美元。Gemini 3的成功促使投资者重新评估该公司相对于AnthropicOpenAI等竞争对手的战略优势。2025年11月25日,英伟达股价单日暴跌超7%,此次暴跌与Thiel Macro基金、软银集团清仓英伟达,桥水基金减仓65%直接相关。其合作伙伴包括超微电脑、甲骨文CoreWeave等公司股价同步下跌3.2%-3.7%。Jones Trading分析师Mike O'Rourke将这一冲击类比为2025年DeepSeek事件,野村证券
深水资产管理公司联席合伙人吉恩·芒斯特在12月11日发布的投资者报告中写道,2026自然年谷歌将成为美股七大科技龙头股中表现最佳的个股,并在打造全栈式人工智能生态体系方面地位无可撼动。
摩根士丹利分析师Brian Nowak团队预测,若2027年谷歌TPU外销量达约50万颗,可能为其云收入带来130亿美元增长,推动每股收益增加0.37美元。该机构分析认为谷歌TPU在特定场景下优于GPU,但强调AI芯片
谷歌Gemini 3 Pro旗舰模型。摩根士丹利高盛等机构均予以Alphabet英伟达
2025年12月11日,OpenAI发布GPT-5.2模型作为对Gemini 3的回应。
功能亮点
推理能力
Gemini 3在推理能力上取得了显著进步,在多项学术级基准测试中展现出博士水平的表现。该模型在GPQA Diamond测试中获得91.9%的高分,在数学领域的MathArena Apex基准测试中取得23.4%的新成绩,在事实准确性方面于SimpleQA Verified测试中达到72.1%的得分。
在多模态推理方面,Gemini 3同样表现出色,在MMMU-Pro测试中获得81%的分数,在Video-MMMU测试中达到87.6%。这意味着该模型能够高度可靠地处理科学和数学等广泛领域的复杂问题。
除标准版本外,谷歌还推出了Gemini 3 Deep Think增强推理模式,该模式在Humanity's Last Exam测试中达到41.0%的成绩,在GPQA Diamond测试中获得93.8%的分数。在ARC-AGI-2测试中,Deep Think模式创下了45.1%的成绩。谷歌表示,该模式正在接受额外的安全评估,将在未来几周内向Google AI Ultra订阅用户开放。
开发者工具
谷歌同时推出了以智能体为先的全新开发平台Google Antigravity,该平台利用Gemini 3的高级推理、工具使用和智能体编码能力,将AI辅助从开发者工具箱中的一个工具转变为主动合作伙伴。LMArena竞技场以1501 Elo得分位列榜首,在衡量模型通过终端操作计算机能力的Terminal-Bench 2.0测试中获得54.2%的分数,在评估代码智能体的SWE-bench Verified基准测试中达到76.2%,远超Gemini 2.5 Pro的表现。
发布会同步推出AI编程平台Antigravity,该平台让开发者直接在产品层面与Gemini 3交互,获取实时使用反馈,帮助谷歌快速迭代模型。
Gemini 3首次将优化重点明确放在手机端推理效率与开发者平台建设上。
开发者可以通过Google AI Studio、Vertex AI、Gemini CLI以及Cursor、GitHub、JetBrainsManusReplit等第三方平台访问Gemini 3。
虽然在SWE-Bench Verified这个测试真实软件工程能力的benchmark上,Gemini 3的76.2%仍然不敌Claude的77.2%得分。但在其他核心第三方的测试中,谷歌却远高于对手。在LiveCodeBench上,Gemini 3的分数比第二名Grok 4.1直接高了200多分。
多模态理解与智能体能力
2025年11月18日,谷歌发布了Gemini 3模型。Gemini 3保留了该系列模型从一开始就具备的跨模态信息综合能力,能够无缝处理文本、图像、视频、音频和代码等多种模态信息,并配备100万token的上下文窗口。该模型支持生成式UI功能,可根据请求动态生成完全定制的用户界面。
在智能体能力方面,Gemini 3在测试长期规划能力的Vending-Bench 2排行榜上位居榜首。该模型能够在整整一年的模拟运营中保持一致的工具使用和决策能力,在不偏离任务的情况下实现更高回报。这意味着Gemini 3能够通过结合更深入的推理与改进的工具使用,代表用户导航更复杂的多步骤工作流程,例如预订本地服务或整理收件箱。作为多模态发展的代表模型之一,Gemini 3的迭代升级直接推动了GUI Agent技术的行业应用,例如在AI手机领域实现操作系统级智能体交互(如豆包手机的UI-TARS系统)。同步发布的Google Antigravity开发平台支持多智能体协作执行复杂任务,最新推出的Nano Banana Pro模型可将专业文本信息转换为可视化流程图。
行业竞争格局
截至2025年12月,AI领域竞争格局已从OpenAI一家独大转向多方竞逐,谷歌凭借2025年11月18日发布的Gemini 3突破性表现首次在基准测试中全面领先,引发OpenAI宣布进入紧急响应状态。行业专家胡延平教授指出,谷歌发布Gemini 3系列产品后,市场看到OpenAI不仅模型水准不再有明显优势,而且未来可能难以抗衡谷歌的全栈全生态优势。谷歌在核心指标月活跃用户量上,也正不断缩小与OpenAI的差距,例如Gemini的月活渗透率从7月的24%攀升至10月的26%,而ChatGPT同期从36%微降至35%。Similar Web数据显示,截至2025年10月底,谷歌Gemini在桌面和移动端的单次平均使用时长飙升至7.2分钟,首次超越了ChatGPT(约6分钟)。另据Sensor Tower的数据,截至2025年11月底,在App下载量上,虽然ChatGPT依然以约7800万的月度下载量领先,但Gemini的追赶速度非常惊人,从2025年年中每月约1500万下载,一路飙升到11月底的约5200万下载。具体而言,CEO山姆·奥特曼于2025年12月发出‘红色警报’,要求公司加速推进ChatGPT工作并推迟其他产品开发,以应对来自GoogleGemini 3的竞争压力。据OpenAI首席研究官马克·陈透露,OpenAI在面临‘关键节点’时曾多次采取类似做法,这种‘红色警报’本质上是一种高度聚焦的组织动员方式。最近一次拉响的‘红色警报’是响应谷歌发布了一款表现突出的新一代AI模型(即Gemini 3),并在多项评测中超过OpenAI现有产品。具体而言,奥尔特曼要求团队将资源集中用于加速ChatGPT的改进,同时放慢自动化AI智能体和广告等方向的推进节奏。不过根据最新行业动态,OpenAI已启动紧急应对措施,2025年12月11日推出的GPT-5.2通过全面架构重构,在编程支持(特别是长程任务执行时自动同步相关文件修改)和逻辑推理领域形成技术反制优势。在进入‘红色警报’状态后,OpenAI已经连续推出更新,不仅发布了用于提升编程、科研和工作效率的新模型,还推出了全新的图像生成模型,以提升生成速度和视觉质量。据2025年12月12日官方公告,GPT-5.2已通过架构重构实现编程逻辑能力提升,但基准测试结果仍需第三方验证。最新基准测试显示,Gemini 3在知识、数学及编程领域多项指标已超越OpenAI模型,这是自ChatGPT问世以来首次出现主要竞争对手全面领先的局面。微软AI首席执行官穆斯塔法・苏莱曼在2025年12月12日接受彭博社采访时表示,曾向谷歌DeepMind首席执行官戴密斯・哈萨比斯发信息祝贺谷歌在Gemini 3等项目上的进展。该模型在LMArena竞技场以1501 Elo得分位列榜首,但在SWE-Bench Verified测试中以76.2%落后于Claude的77.2%。
谷歌通过搜索、Gmail及Workspace等核心产品矩阵,具备向数十亿用户实时推送更新的渠道优势,这背后是皮查伊多年前敲定的‘全栈策略’,即整合模型、算力、工具链和应用入口,形成协同效应。相较之下OpenAI主要依赖独立产品分发。其母公司Alphabet净利润同比激增33%至349.8亿美元,而第三方分析师预测OpenAI到2029年可能面临累计1400亿美元亏损。反映在资本端,与OpenAI深度绑定的上市公司,包括甲骨文软银微软英伟达CoreWeave股价从10月底开始集体下跌。值得注意的是,OpenAI正在同步开发代号Shallotpeat的新型大模型架构,旨在通过改进训练效率增强与Gemini系列模型的长期竞争力。面向未来一年,马克·陈指出,团队将把主要精力放在算法研发、算力基础设施和前沿研究上,为更强大的模型训练奠定基础。为此,OpenAI计划在未来八年内投入1.4万亿美元(现汇率约合9.87万亿元人民币)建设相关基础设施。马克·陈表示,调整旨在高度聚焦对话能力、推理能力和核心ChatGPT产品,确保基础环节做到位,并让聊天机器人运行更快更稳。
模型应用
2025年11月18日,Gemini 3部署至谷歌搜索的AI模式、Gemini应用、API接口、VertexAI等核心产品。
发展历程
当地时间2025年11月18日,谷歌推出新一代大型语言模型Gemini 3。
最新修订时间:2026-01-07 13:19
目录
概述
市场反响
参考资料